| |||||||||||||||||||||||||||||||||||||||||||||||||
На главную страницу третьего семестра 1. Сравнение разных записей в EMBLC помощью SRS произвела поиск в БД EMBL. Полученные данные приведены в таблице:
Аббревиатура STD в названии класса данных обозначает "standard". Это значит, что файл занимает не более 4 Гб, что достигается путем регулирования количества записей в каждом файле. Имеет смысл сравнивать полученные данные по полю Описание. Значения типа молекулы, класса данных и разделы EMBL совпадают, а дата создания записи не имеет принципиального значения. Все найденные в БД EMBL последовательности являются геномными ДНК. Запись с AC U00096 является полным геномом Escherichia coli K12 MG1655, соответсвенно, длина этой последовательности наибольшая. Запись с AC AF318185 содержит ген, кодирующий белок - переносчик Cu (меди) - transcriptional regulator CueR (cueR) - также из Escherichia coli. Это самая короткая последовательность из трех найденных. Запись с AC U82664 содержит нуклеотидную последовательность с 9 до 11 минуты. Последовательность включает несколько генов, соответственно, занимает среднее положение по длине. 2. Сравнение описаний гена Escherichia coli в двух разных записях EMBLС помощью команд entret embl:AF318185 -auto и entret embl:U82664 -auto были получены 2 записи EMBL, с соответсвенными ID. С помощью данных, найденных в этих записях EMBL, была составлена таблица 2:
Последовательности, кодирующие белок CUER_ECOLI в двух записях банка EMBL
С помощью команды UNIX seqret и имеющихся сведений о начале, конце и направлении кодирующих последовательностей из полученных записей EMBL я извлекла нуклеотидные последовательности, кодирующие белок CUER_ECOLI(см. таблицу 2), в виде отдельных файлов CUER_gene1.fasta и CUER_gene2.fasta. С помощью программы neddle, я сравнила данные последовательности, построив их глобальное выравнивание. (Использовалась матрица EDNAFULL, со штрафом за гэп - 10.0 и штрафом за продолжение гэпа - 0.5). Последовательности оказались сходны на 100%.
3. Знакомство с записью гена из эукариотического геномаИзучила документ EMBL с идентификационным номером BA000025. Он содержит ген BAT1, находящийся в участке p -плеча 6ой хромосомы человека (Homo sapiens)и кодирующий сериновую протеазу. Схематичное изображение структуры транслируемых участков гена BAT1 (изображены только первый и последний транслируемые участки).
Ген находится на кодирующей цепи ----[302031..302060]--...--[413556..413760]-> Всего в состав гена входит 11 экзонов, но 1ый и 2ой в записи EMBL находятся отдельно от остальных. Второй экзон находится непосредственно перед третьим ( если, конечно, не считать интрон). А вот между первым и вторым лежат кодирующие области гена. Приведена часть документа EMBL с идентификационным номером BA000025: Получается, что в поле CDS описаны только 10 экзонов, причем для второго экзона начало гена не совпадает с данными FT. С первым экзоном ситуация совсем неординарная. Он находится отдельно от остальных и даже не упоминается в CDS, причем его длина составляет всего 30 нуклеотидов, что явно мало для полноценного экзона. Так как первый экзон находится отдельно, то первый интрон получается самым длинным. Но, на мой взгляд, полноценным интроном его также нельзя считать, так как он включает в себя кодирующие последовательности. Биологический смысл этих "нестандартностей" я пока не выяснила.
Самый длинный экзон - 11ый (205 нуклеотидов) Рассчеты можно посмотреть в файле Count.xls © Лозиер Екатерина |